Học tăng cường Hàm_softmax

Trong lĩnh vực của học tăng cường, một hàm softmax có thể được sử dụng để chuyển đổi giá trị thành xác suất. Các hàm thường dùng là:[3]

P t ( a ) = exp ⁡ ( q t ( a ) / τ ) ∑ i = 1 n exp ⁡ ( q t ( i ) / τ ) , {\displaystyle P_{t}(a)={\frac {\exp(q_{t}(a)/\tau )}{\sum _{i=1}^{n}\exp(q_{t}(i)/\tau )}}{\text{,}}}

nơi giá trị của hành động  {\displaystyle } tương ứng với hiệu quả mong muốn của hành động a và {\displaystyle }  (một sự ám chỉ trong thống kê cơ học). Với nhiệt độ cao ( {\displaystyle } ), tất cả hành động như có cùng một xác suất và với nhiệt độ càng thấp hơn thì sự ảnh hưởng của hiệu quả mong muốn đến xác suất càng cao. Với nhiệt độ thấp ( {\displaystyle } ), xác suất của hành động với hiệu quả mong muốn lớn nhất sẽ có xu hướng tiến tới 1.